1 research outputs found

    Metodolog铆a para la selecci贸n de la m茅trica de distancia en Neighborhood Kernels para clasificaci贸n semi-supervisada de secuencias proteicas

    Get PDF
    Este trabajo presenta una metodolog铆a para la selecci贸n de m茅tricas de distancia, entre Geom茅tricas y Bio-inspiradas, en un clasificador semi-supervisado de m谩quinas de vectores de soporte (SVM), para la clasificaci贸n de secuencias proteicas de plantas terrestres (base de datos Embryophyta). Primero se construy贸 una matriz kernel mediante un proceso de extracci贸n y selecci贸n de caracter铆sticas, por otro lado, se construy贸 una matriz para las distancias Eucl铆dea, Mahalanobis, Mismatch y Gappy. Ambas matrices fueron usadas en el algoritmo Neighbordooh kernel para obtener una matriz semi-supervisada para un clasificador SVM optimizado con PSO y W-SVM, cuyo modelo de predicci贸n fue evaluado calculando la matriz de confusi贸n entre los datos de entrenamiento y los datos de prueba obtenidos mediante validaci贸n cruzada, posteriormente se calcula la media geom茅trica con base en la sensibilidad y la especificidad. Los resultados demuestran que la metodolog铆a presentada es eficiente para seleccionar la m茅trica de distancia apropiada seg煤n la funci贸n molecular. La m茅trica Eucl铆dea fue seleccionada como la de mejor desempe帽o para siete funciones, con porcentajes de acierto que van desde 49.94% hasta el 74.3%. Mismatch por su parte, fue seleccionada para tres funciones, con desempe帽os desde 51.63% hasta 80.78%, y por 煤ltimo, Gappy fue seleccionada para cuatro funciones, con aciertos desde 43.11% hasta 68.5%. Para terminar, es importante resaltar que este proyecto de investigaci贸n permiti贸 la creaci贸n de la l铆nea de investigaci贸n en algoritmos bioinform谩ticos en el ITM, adem谩s deriv贸 cuatro trabajos de grado de pregrado y dos nuevos estudiantes de la Maestr铆a en Automatizaci贸n y Control IndustrialThis Project presents a methodology to select between Geometric and Bio-inspired distance metrics in a semi-supervised classifier using Support Vector Machine (SVM) to classify protein sequences from land plants (Embryophyta dataset). First, a kernel matrix was built in a process of extraction and feature selection, on the other hand, another matrix was built to Euclidean, Mahalanobis, Mismatch and Gappy distances. Both matrices were used in the Neighborhood kernel algorithm to obtain a semi-supervised matrix to an optimized SVM classifier using PSO and W-SVM. The prediction model was evaluated calculating a confusion matrix between training data and test data, with partitions from cross-validation method; after was calculated a geometric mean with the sensitivity and specificity. The results show that the methodology presented is efficient to select the best metric according to the molecular function. The Euclidean metric was selected as the best one for seven functions, with score from 49.94% to 74.3%. Mismatch was selected for three functions, with score from 51.63% to 80.78%, and Gappy was selected for four functions, with score from 43.11% to 68.5%. On the other hand, it is important to stand out that this work allowed to create a new research line in Bioinformatic algorithm in the ITM, in addition, this one derived four Degree works in Engineering and two new students of Maestr铆a en Automatizaci贸n y Control industrialMagister en Automatizaci贸n y Contro
    corecore